home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9610 / 000045_owner-urn-ietf _Wed Oct 16 13:10:06 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  7KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id NAA15907 for urn-ietf-out; Wed, 16 Oct 1996 13:10:06 -0400
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id NAA15902 for <urn-ietf@services.bunyip.com>; Wed, 16 Oct 1996 13:10:01 -0400
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA15261  (mail destined for urn-ietf@services.bunyip.com); Wed, 16 Oct 96 13:09:56 -0400
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <01096-0@josef.ifi.unizh.ch>; Wed, 16 Oct 1996 19:09:52 +0100
  7. Subject: Re: [URN] Internationalization!
  8. To: masinter@parc.xerox.com
  9. Date: Wed, 16 Oct 1996 19:09:51 +0100 (MET)
  10. Cc: urn-ietf@bunyip.com
  11. In-Reply-To: <96Oct12.233126pdt."2765"@golden.parc.xerox.com> from "Larry Masinter" at Oct 12, 96 11:31:26 pm
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 5564
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..001:16.09.96.18.09.52"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. When I received the anoucement for the new URN mailing list
  24. some time ago, I thought that one point would definitely turn
  25. up, namely internationalization. I had this expectation because
  26. in an earlier discussion on the uri mailing list, I was told
  27. that I came at a bad time, but that this could be dealt with
  28. with URNs.
  29.  
  30. After following the discussion for some time, I realized that
  31. a lot of issues have come up, but internationalization was never
  32. mentionned. This is not a good sign, and I want to change it
  33. herewith.
  34.  
  35. Internationalization, for those that don't know it, means
  36. support for different scripts and languages as they are used
  37. around the world. Internationalization is often abbreviated I18N.
  38.  
  39.  
  40. Why is internationalization of URLs and URNs an issue?
  41.  
  42. - In some cases, URL/N contents is per definition international.
  43.     Think about a query to a Japanese->English dictionary server.
  44. - In some cases, resource locations (e.g. file names) contain
  45.     non-ASCII characters. On some OSs, there is absolutely
  46.     nothing strange about such things.
  47. - Many names of resources (think about book titles) are inherently
  48.     in various languages.
  49. - Company names, product names, and so on, are much better known
  50.     to local users in their local form. It is tedious and
  51.     error-prone, and maybe very difficult, to remember the
  52.     ascii equivalent.
  53.  
  54.  
  55. Why are URNs affected?
  56.  
  57. - URNs advertise such things as grandfathering of namespaces.
  58.     Maybe grandfathering could be a mechanism to deal with
  59.     some internationalization issues.
  60. - URNs are names. Names are intrinsically meaningful, and therefore
  61.     need internationalization to be meaningful in the right context.
  62. - URNs look a lot like URLs, so they may be affected in the same way
  63.     as URLs by internationalization issues.
  64. - Time is now. The earlier the direction for URL/N i18n is established,
  65.     the easier it is to make it work consistently, and the less
  66.     legacy issues have to be dealt with.
  67. - Internationalization is an important issue in general, and not
  68.     considering it nowadays is definitely not good practice.
  69.  
  70.  
  71. What people might say agaist the internationalization of URL/Ns,
  72. but is just not true:
  73.  
  74. - International URL/Ns create ambiguity.
  75.     The ambiguity is about the same as with 0/O or 1/l/I.
  76.  
  77. - URL/Ns are just like phone numbers.
  78.     Even for phone numbers, people try to create easy ways
  79.     to remember them. And even if 99% of the URL/Ns are
  80.     like phone numbers, not designed to be understod by
  81.     any human reader, it's the rest of 1% that is important.
  82.  
  83. - Everybody should be able to type in an URL/N, everywhere.
  84.     A lot of people have problems to type standard URLs
  85.     on their keyboards because they are not used to
  86.     the Latin alphabet. And does it matter whether you
  87.     can type an URL/N, if you can't understand the contents
  88.     of the resource it is pointing to anyway? If you
  89.     understand the URL/N, but can't type it at the place
  90.     you are, web servers can easily be constructed that
  91.     provide such an input service. And finally, the
  92.     information providers will be mature enough to
  93.     decide what their audience prefers.
  94.  
  95.  
  96. What are the problems for URL/N internationalization?
  97.  
  98. - Decide on character encoding and semantics.
  99.     URLs currently allow to represent arbitrary octets (bytes).
  100.     An octet 01000010 is represented as "B", an octet
  101.     10001111 is represented as "%8F". Nothing in the URL
  102.     spec says clearly that a "B" in an URL is actually
  103.     supposed to mean a "B" in a context where one could
  104.     ask what character that octet is representing
  105.     (this means in almost all contexts, except e.g.
  106.     for the data: URL).
  107.     Hovewer, in fact the situation is much different
  108.     for the "B" and the "%8F". The "B" is, although
  109.     the spec does not require it, always just a "B".
  110.     And the character "B" never turns up in another
  111.     form in an URL than as a "B". For the "%8F",
  112.     however, things are completely different. There
  113.     is no standard or custom whatsoever saying what
  114.     character (or part of a character) the octet
  115.     represented by "%8F" could or should be, or by
  116.     which octet or octets certain characters should
  117.     be encoded. To some degree, such octets are used
  118.     to denote some i18n characters, but if this works,
  119.     it is only due to a lot of assumptions and guesswork
  120.     on both client and server side.
  121.  
  122.     Some proposals tried to encode the relation between
  123.     characters and octets as part of the URL itself
  124.     (e.g. aka RFC 1522), which lead to very clumsy
  125.     syntax and lots of other problems (esp. where exactly
  126.     to put it and what it should apply to). An IMHO
  127.     much better solution is to use an uniform encoding.
  128.     Using UNicode/ISO 10646 and UTF-8, this could be done
  129.     in a clear fashion, without affecting any ASCII
  130.     URL/Ns, with large reserves for the future (2 Giga
  131.     codepoints!), and with lots of other benefits.
  132.  
  133. - Specify in which cases which notation is to be used.
  134.     E.g. on paper: International notation or %HH
  135.     notation if unavoidable, on the line: preferably
  136.     raw UTF-8, but %HH if a protocol prefers it,...
  137.  
  138. - Recommend ways for upgrades for the various schemes/
  139.     protocols.
  140.  
  141. - Encourage browser and server implementors to go on with
  142.     it.
  143.  
  144.  
  145.  
  146. Anyway, this is just a first mail to make you aware of the
  147. issues. I look forward to an interesting and fruitful
  148. discussion.
  149.  
  150. Regards,    Martin.
  151.  
  152. ----
  153. Dr.sc.  Martin J. Du"rst                ' , . p y f g c R l / =
  154. Institut fu"r Informatik                 a o e U i D h T n S -
  155. der Universita"t Zu"rich                  ; q j k x b m w v z
  156. Winterthurerstrasse  190                 (the Dvorak keyboard)
  157. CH-8057   Zu"rich-Irchel   Tel: +41 1 257 43 16
  158.  S w i t z e r l a n d       Fax: +41 1 363 00 35   Email: mduerst@ifi.unizh.ch
  159. ----
  160.  
  161.